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© Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhaiten eines 
technischen Systems / 

© Verfahren zum Training eines neuronalen Netzes mit dem 
nicht deterministischen Verhaiten eines technischen Sy- 
stems, 

a) bei dem das neuronals Netz mit dem technischen System, 
oder einem Model! davon so in einen Regelkreis eingebun- 
den wird, daS das neuronalo Netz als Ausgangsgro&e 
mindestens eine Stellgro&e an das technische System, oder 
sain Modell abgibt und das technische System oder sein 
Modell aus der vom neuronalen Netz zugefuhrten Stellgro- 
&e, mindestens eine Regelgrd&e erzeugt, die dem Neurona- 
len Netz als Eingangsgro&e zugefuhrt wird, 

b) bei dem die Stellgrd&e mit einem Rsuschen von bekann- 
ter Rauschverteilung uberiagert wird, bevor sie dem techni- 
schen System oder seinem Modell zugefuhrt wird, 

c) und bei dem die Gewichte des neuronalen Netzes in 
Reaktion auf die durch das aufgeprigte Rauschen verinder- 
te Regelgro&e wie folgt eingestellt warden: 
68 wtrd von einer Kostenfunktion bewertet, ob die Gewichts- 
anderung am Netz, die nach bekannten Lernverfahren 
eingestellt wird, eine Verbesserung der Regelgro&e in Bezug 
auf ein Sollverhatten des technischen Systems bewirkt hat 
und solche Gewichtseinstellungen werden durch die Kosten- 
funktion begiinstigt. 
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Beschreibung 

Die Erfindung bezieht sich auf ein Lemverfahren ziir neuronalen Modelliening von dynamischen Prozessen 
rait dem erreicht werden soil, daB das neuronale Netz in der Lage ist Prozesse mit hohem Anteil an stochasti- 
5 schen Vorgangen zu regeln. 

Neuronale Netze Hnden in die vielfaitigsten techiiischen Gebiete Eingang. Oberall dort, wo es gilt, aus 
komplexen technischen Zusammenhangen und aus uozureichenden Informationen Entscheidungen abzuleiten, 
erweisen sich neuronale Netze als besonders geeignet Zur Bildung einer oder mehrerer AusgangsgrdBen 
werden dem neuronalen Netz beispielsweise eine oder mehrere EingangsgroBen zugefuhrt Hierzu wird ein 

io solcbes Netz zunachst fur den speziellen Einsatzf all trainiert, anschlieBend generalisiert und danach wird es mit 
einem anderen Datensatz als den Trainingsdaten validiert Neuronale Netze erweisen sich fur viele Einsatzf alie 
als besonders geeignet, da sie universell trainierbar sincL 

Ein haufig auftretendes Problem im Zraainmenhang mit dem Einsatz von neuronalen Netzen besteht aller- 
dings darin, daB haufig die Eingangsdaten zum Training, oder beim Betrteb des Netzes nicht vollstandig sind. 

15 Dieser Sachverhalt und auch die Tatsache, daB die MeBwerte fur den Aufbau einer Zeitreihe, welche dem 
neuronalen Netz zugefuhrt wird, haufig ungenau oder verrauscht sind, bewirken, daB teilweise schlechte Leraer- 
gebnisse der Netze erzielt werden. Es sind verschiedene Moglichkeiten zur Optimierung von Lernvorgangen bei 
neuronalen Netzen bekannt Aus den IEEE Transactions on Systems, Man and Cybernetics, VoL 23, No. 3, 
May/June 1993, Seiten 686 bis 697 ist ein Lemverfahren fur ein neuronales Netz bekannt, bei dem dieses Netz in 

20 einem Regelkreis eingebaut wird und mit der Regeldiff erenz der Regelstrecke trainiert wird. 

Ebenfalls wird dort in Form einer Kostenfunktion ein Algorithmus angegeben, urn die einzelnen Gewichte an 
den Neuronen einzustellen. Aus der deutschen Offenlejjungsschrift DE 41 38 053 Al ist ein hybrides Lemverfah- 
ren fur kunstliche neuronale Netze bekannt Kfit diesem zweistufigen Verfahren soli vor alien Dingen auch eine 
Optimierung auch nicht differenzierbarer Zielfunktionen in Anwesenheit vteler lokaler Optimalwerte bei ver- 

25 tretbarem Rechenaufwand innerhalb vertretbarer Zeitraume gegeben sein. Hierzu wird in einer ersten Stufe das 
Netz mit Wife eines genetischen Optimierungsverfahrens trainiert und in einer zweiten Stufe kommt ein 
Gradientenverfahren, wie z.B. der Back-Propagation-Algorithmus zur Anwendung. Aus dem US-Patent 
5 396 415 ist ein Neuro-PID-Regier bekannt In dieser iKnwendung wird ein neuronales Netz als Ersatz fur einen 
PID-Regler in einem Regelkreis eingesetzt Dem Netz werden hierzu PID-Eingange zugefuhrt, worauf es als 

30 PID-Regler arbettet, urn damit Trainingsaufwand beim Trainieren des Netzes zu sparen und eine effizientere 
Regelung zu erzielen. Aus dem US-Patent 5 159 660 ist eine universelle Prozefiregelung bekannt, welche sich 
kunstlicher neuronaler Netze bedient Den neuronalen Netzen, welche fur diese Regelung eingesetzt werden, 
werden hierzu als Eingange Zeitreihen von Fehlerwerten zugefuhrt Die Neuronenpfade werden dabei als 
Funktion dieser Fehlerwerte gewichtet und ergeben somit den gewunschten ProzeBausgang. Mit derartigen 

35 Reglem konnen efnzient Prozesse mit nicht linearem, zeitvariablen, gekoppelten und variablen Strukturverhal- 
ten sowohl mit variablen ProzeBparametern oder Strukturunsicherheiten geregelt werden. Es gibt jedoch 
andere Prozesse, welche mit hohem Anteil an stochastischen Vorgangen behaftet sind, fur welche die genannten 
Lemverfahren nicht optimal geeignet sind. 

Bei Prozessen mit hohem Anteil an stochastischen Vorgangen tritt insbesondere das Problem auf, daB die 

40 Trainingsdaten Zufallscharakter haben und deshalb biisher keine Methode existiert neuronale Netze mit dem 
Verhalten solcher Systeme zu trainieren. Bislang gibt es keine Ansatze, welche dieser besonderen Problematik 
Rechnung tragen. 

Die der Erfindung zugrundeliegende Aufgabe besteht deshalb darin, ein Lemverfahren anzugeben, mit dem 
der Lemvorgang beim Training eines neuronalen Netzes verbessert werden kann, welches das Verhalten eines 
45 technischen Systems mit hohem Anteil an stochastischen Vorgangen trainieren solL 
Diese Aufgabe wird gemtB den Merkmalen des Patentanspruchs 1 gelost 
Weiterbildungen der Erfindung ergeben sich aus den abhangigen Anspruchen. 

Besonders vorteilhaft konnen mit dem erfindungsgemaBen Verfahren neuronale Netze mit dem Verhalten 
von technischen Systemen trainiert werden, welche ein nahezu vollstandig stochastisches Verhalten aufweisen, 

50 da sich das erfmdungsgemaBe Verfahren statistischer Methoden zur Auswertung der Eingangsdaten beim 
Training des neuronalen Netzes bedient Besonders vorteilhaft werden hierzu die SteUgroBendaten, zur Erzeu- 
gung einer neuen RegelgroBe des technischen Systems, mit Hilfe eines Rauschens von bekannter statischer 
VerteOung variiert Durch eine haufige Wiederholung dieses Vorgangs und eine Bewertung der RegelgroBe des 
technischen Systems anhand einer Kostenfunktion, wobei solche Gewichte, welche eine Verbesserung des 

55 Verhaltens des technischen Systems in Bezug auf ein gcswunschtes Sollverhalten bewirken mit Hilfe der Kosten- 
funktion starker gewichtet werden, kann eine optimale Gewichtseinstellung des neuronalen Netzes erreicht 
werden. Zur Einstellung der Gewichte in Bezug auf den Fehlergradienten werden bekannte Verfahren fur das 
Training neuronaler Netze verwendet 

Besonders vorteilhaft kann die Anzahl der zum Trailing des neuronalen Netzes aufzunehmenden Zeitreihen 

60 variiert werden, damit ist dem Fachmann die Moglichkcit gegeben, die Genauigkeit der Einstellung der Gewich- 
te des neuronalen Netzes in Abhangigkeit der ihm zur Verfugung stehenden Rechenzeit oder Rechenkapazitat 
zu beeinflussen. 

Vorzugsweise konnen durch Modelliening oder durch Einsatz des realen technischen Systems mehrere 
Zeitreihen gewonnen werden, und deren Mittelwerte zum Training des neuronalen Netzes verwendet werden, 
65 da sich so eine bessere statistische Signifikanz fur die Richtigkeit der Trainingswerte ergibt 

Vorteilhaft wird beim Training des neuronalen Netzes als bekannte Rauschverteilung zur Variation der 
StellgroBe eine Gaufiverteilung verwendet da sich damit der Fehlergradient zum Training des neuronalen 
Netzes besonders einf ach berechnen laBt 
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Vorteilhaft werden mehrere Zeitreihen simuliert und gemessen, da so eine Aussage uber das Verhalten der 
RegelgroBe des technischen Systems unter verschiedenen Umstanden erhalten werden kann und sich dadurch 
dieStadstikder Zeitreihe verbessert Vorteilhaft kann nicht nur die Stellgrofte, sondern auch die RegelgroBe von 
einem Rauschen bekannter VerteUung uberiagert sein, ohne daB das Lernverhalten des neuronalen Netzes nach 
dem erfmdungsgemaBen Verfahren beemtrachtigt wird 5 

Im f olgenden wird die Erfindung anhand von Figuren weiter eriauterL 

Fig* I zeigt eine Zeitreihe und ein Systemverhalten, 

Fi*. 2 gibt ein Beispiel des erfmdungsgemaBen Verfahrens an. _ , 

Fit 1 zeigt eine Zeitreihe von MeBwerten, welche beispielsweise emem neuronalen Netz zugefuhrt werden 
konnen. Die Erlauterung dieser Figur client insbesondere dazu die mathematischen Grundlagenzur Behandlung 10 
des erfmdungsgemaBen Verfahrens zu durchleuchten. GemaB ihrer zeitlichen Abfolge werden diese MeBwerte 
beispielsweise von einem technischen System erfaBt und gemaB ihrer zeitlichen Abfolge mit y t bis y t -6 bezeicn- 
net Beispielsweise wird in Fig. 1 davon ausgegangen, daB der Wert y t -2 f ehlt Die im M^kov^blanket relevanten 
Werte, als benachbarte Werte dieses fehlenden MeBwertes, sind y t -4, y t -3, yt-i und y t . Em sokh fehlender 
MeBwert in einer Zeitreihe kann beispielsweise dadurch entstehen, daB zum fraglichen Zeitpunkt das MeBgerat, is 
zur Werteaufnahme nidit funktionierte, oder daB es zwischen einzelnen gemessenen Werten gunstig erschemt, 
um das neuronale Netz besser zu trainieren, diesem einen weiteren Wert zuzufuhren, der folglich noch zu 
bestimmen ist Beispielsweise wird in Fig. 1 weiter davon ausgegangen, daB der Wert y t -3 fefait Die im Markov 
blanket relevanten Werte, als benachbarte Werte dieses fehlenden MeBwertes, sind yt-5, y t -4, yt-2 und ft-i. 
Die Anwendung des erfmdungsgemaBen Verfahrens zum Training hat nach der erfindenschen Idee zur Folge, 20 
daB das Netz mit besser zutreff enden Gewichtungsfaktoren ausgestattet wird Dies ist der Fall well sich die 
Erfindung der Statistik bedient und es so ermoglicht auch aus Zeitreihen, welche Prozessen mit hohem stochasti- 
schen Anteil von Vorgangen entnommen werden, die relevanten Trainingsdaten zu extrahieren. 

Besonders vorteilhaft werden die Daten fur die StellgroBe dabei durch ein Rauschen mit bekannter Rausch- 
verteilung, wie beispielsweise GauB-, oder Poisson-Verteilung variiert. 25 

Hierdurch wird die EinsteDung der Gewichte an den Neuronen des Netzes wesentlich veremfach^ da sich die 
mathematischen Terme fur die Berechnung der Regeldifferenz wesentlich einfacher gestalten lassen. Dies in 
Kombination mit einer Kostenfunktion, welche solche Gewichtseinstellungen begummgt, die emen gewunschten 
Solizustand am technischen System hersteUen, ergibt ein vorteilhaftes Trainingsverfahren, welche mit ver- 
gleichsweise geringem Rechenaufwand zu guten Trainingsleistungen der Netze fuhrt. _ jr _ . 30 

Fig* 1 zeigt dabei die Zeitreihe in Verbindung mit einem zu trainierenden neuronalen Netz NNW. Es 1st zu 
erkennen, daB y eine zeitabhangige Variable darsteQt, welche das Systemverhalten SY ernes technischen Sy- 
stems reprasentiert. Wie erkannt werden kann, entsprechen die Werte y t bis y t -6 MeBwerten, welche dem 
Systemverlauf SY entnommen werden. Durch die gestrichelten Pf eUe zu den jeweiligen Zeitpunkten ist symboli- 
siert, daB diese MeBwerte dem neuronalen Netz NN W beim Training zugefuhrt werden sollen. 35 

Hier ist der fragiiche MeBwert M fur den Zeitpunkt y t -2 nicht vorhanden. Fur dies en MeBwert M ist seine 
Wahrscheinlichkeitsdichte el angegeben. Diese Wahrscheinlichkeitsdichte e kann beispielsweise aus einer vor- 
gegebenen bekannten Fehlerverteiiungsdichte der iibrigen bekannten MeBwerte ruckgerechnet werden. Insbe- 
sondere wird dabei ausgenutzt, daB sich der fehlende MeBwert zwischen zwei bekannten MeBwerten befinden 
muB und damit auch dessen Fehler durch die Fehler der benachbarten und der restlichen MeBwerte der 40 
Zeitreihe begrenzt wird. Die zugrundeliegende Zeitreihe laBt sich wie folgt beschreiben: 

yt = fl(yt-i.yt-2r.~,yt-N)+et (1) 

Dabei ist f entweder bekannt oder wird hinreichend durch ein neuronales Netz modelliert. 6t bedeutet dabei 45 
einen additiven unkorrelierten Fehler mit zeitlichem Mittelwert a Dieser Fehler weist dabei und das ist fur das 
erfindungsgemaBe Verfahren essentiell eine bekannte oder vorgegebene Wahrscheinlichkeitsdichte P« (e) auf 
und versinnbildlicht typischerweise die unmodellierte Dynamik der Zeitreihe. Beispielsweise soli fur eine solche 
Zeitreihe, ein zukunftiger Wert vorhergesagt werden. Dabei ist zu beachten, daB zukunftige Werte relativ zu der 
momentanen gewahlten Zeitposition zu verstehen sind. Das heiBt fur einen Zeitpunkt y t -s ist der Zeitpunkt yt-4 so 
ein zukunftiger Wert Unter diesen Voraussetzungen laBt sich die bedingte Wahrscheinlichkeitsdichte fur einen 
vorherzusagenden Wert der Zeitreihe wie folgt beschreiben. 

PMyt-i,yt-2,...,yt-N) ~ Pi(yt-i,yt-z-.jrt-N)) (2) ^ 

Wie bereits erwahnt muB die Fehlerverteiiungsdichte bekannt sein. Diese Verteilungsdichte kann entweder 
anhand des Systemverhaltens und bekannter anderer auBerer GroBen ennhtelt oder vorgegeben werden. Eine 
typische Fehlerverteilung, die in der Praxis auftritt ist die GauBverteilung. Mit einer solchen angenommenen 
Gaufi'schen Fehlerverteilung laBt sich die bedingte Wahrscheinlichkeitsdichte wie folgt beschreiben: 

60 

P(yt|yt- 1, yt-2, - - . , yt-w) = G(y t - 1; f(yi - 1, y t -wX (3) 

Darin bedeutet G(x; c, a 2 ) die Notation fur eine normale Dichte, die bei x bestimmt wird mit einem Zentrum C 
und einer Varianz a 2 . Geht man davon aus, daB das zu beschreibende System in Form einer Folge von Werten 
auf einer Zeitachse dargesteDt wird, so kann man die einzelnen Werte von yt auch als Zufallsvariable in einem €5 
probabilistischen Netzwerk auffassen. Beispielsweise besteht das Problem des Netzes darin, einen Wert der 
Zeitreihe vorherzusagen, indem die vorhandene Information aus den restlichen Werten moglichst vollstandig 
verwendet wird. Unter Voraussetzung der Annahmen, die zuvor gemacht wurden, laBt sich die gesamte Wahr- 
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scheinlichkeitsdichte der Zeitreihe wie folgt beschreibun: 


Dabei wird davon ausgegangen, daB y t -k mit k: < N der fehlende Wert ist Mit der Bezeichnung y°={yt-k}fur 
die Menge der unbekannten Werte und y»={y t _i, ... ,yt-b-N}/{yt-k} kann der erwartete Wert der in der 
10 Zeitreihe vorherzusagen ist wie folgt beschrieben werden: 

E(y t |Mt_i) - Jf(yt-i,...,yt-k,...»t-N)P(y u Iy ,,I )dy u (5) 

Dabei gelten f olgende Voraussetzungen: 

} 5 Mt-i steht fur alle Messungen bis zum Zeitpunkt t — 1. Die voranstehende Gleichung ist die gnmdlegende 
Gleichung fur die Vorhersage mit fehlenden Daten, Dabei ist besonders zu beachten, daB die Unbekannte yt-k 
nicht nur von den Werten der Zeitreihe vor dem Zeitpainkt t — k abhangt sondern auch von den Messungen nach 
t— k. Der Grund besteht darin, daB die Variablen in ^Uyt ein minim ales Markov blanket von yt-k formen. 
Dieses minimale Markov blanket besteht aus den direkten Vorfahren und den direkten Nachfahren einer 

20 Variable und alien direkten Vorfahren von Variablen des direkten Nachfolgers. Im betrachteten Beispiel in 
Fig. 4 sind die direkten Nachfahren y t . . . yt-k+ i. Die direkten Vorfahren sind: 

y t -k-i..-yt-k-N 

25 und die direkten Eltern der Nachf olger der Variablen sind: 

yt-t ...yt-k-N-i-i* 

Aus den theoretischen Grundlagen ist bekannt daB eine Variable unabhangig von einer anderen Variablen 
30 dieses Netzwerkes ist, wenn die Variablen innerhallb des Markov blankets bekannt sind. Deshalb wird die 
bendtigte bedingte Dichte aus Gleichung (5) wie folgt bestimmt: 

P(y u |y m ) oc P(yt-i |yt-2,.-.yt-fc«.yt-i-N) 

x P(y t -2 1 yt-3 , - . . ,yt-k , . . . , yt-2-N) . . . P(yt-k I yt-t-i , - - • , yt-k-N). (5b) 

35 

Der bier beschriebene Fall eines fehlenden MeBwertes kann auch o auf mehrere nebeneinander liegende 
fehlende MeBwerte ausgedehnt werden. Falls dies der Fall ist, kann die bedingte Dichte in Gleichung (5) wie im 
f olgenden beschrieben, bestimmt werden, Fur diesen Fall sei 

40 y" £ {yt-u yt-2 » . . . , yt-4 (5c) 

die Menge aller fehlenden Werte der Zeitreihe zwischen dem Zeitpunkt t — 1 und t — N, und weiterhin sei 

y" £ {yt-i.yt-2 , . - . ,yi} (5d) 

45 

die Menge alter MeBwerte bis zum Zeitpunkt t — 1. Auch gilt 

P(y« | y»)a P(y t - 1 , . . . wi) (5e) 

50 wobei die rechte Seite in (5e) aus Gleichung (4) erhaken wird. Im allgemeinen ist das Integral in Gleichung (5), 
wobei 

P(yu/y m )in Gleichung (5) uber die Gleichungen (2), (4) und (5b) bis (5e) bestimmt wird, fur die Funkdon fQ> falls 
dies eine nichtlineare Funkdon ist, nicht analytisch ldsbar. Details fur die numerische Ldsung mit Hilfe statisti- 
scher Methoden werden im Zusammenhang mit Fig. 2 angegeben. Fur den Fall daB ein weiterer MeBwert, der 

55 Zeitreihe nachgebildet werden soil, sieht das Verf ahren eine iterative Approximation der Wahrscheinlichkeits- 
verteilung der fehlenden Werte vor. Beispielsweise sei fur das Training des Netzes zusatzlich der Wert L fur den 
Zeitpunkt yt-3 nachzubilden. Fur diesen MeBwert M ist seine Wahrscheinlichkeitsdichte e2 angegeben. Diese 
Wahrscheinlichkeitsdichte £2 kann beispielsweise nach dem erfindungsgemaBen Verf ahren aus einer vorgegebe- 
nen bekannten Fehlerverteilungsdichte der ubrigen bekannten MeBwerte ruckgerechnet werden. Fur die Ap- 

60 proximation der Wahrscheinlichkeitsverteilung von zwei solchen fehlenden Werten L und M wird zunachst L 
beispielsweise als bekannt vorausgesetzt oder geschatzt Daraus wird die Verteilung von M berechnet und 
gemaB dieser Verteilung ein Wert fur M zufallig bestimmt Mit diesem bekannten Wert M wird anschlieBend in 
derselben Weise L bestimmt Dieser Vorgang wird iteriert Die Folge der so ermitteiten Werte approximiert die 
gemeinsame Wahrscheinlichkeitsverteilung von L und: M. Dieser Iterationsvorgang lauft vonzugsweise so lange 

65 ab, bis eine hinreichende Genauigkeit der Werte gegeben ist oder bis das Netz genau genug trainiert ist Fur 
mehr als zwei fehlende Werte verfahrt man analog. Es wird immer jeweils ein Wert gemaB der Verteilung 
bestimmt die sich ergibt wenn alle anderen als bekannt angenommen werden. 
Fur den Fall, daB y u ... yi mogliche Werte der Zeitreihe darstellen sollen y™ £ {yi,...,yt} alle MeBwerte 
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bezeichnen und y° » {y,...^t} alle unbekannten Werte bezeichnen. Das neuronale Netz NN^j welches die 
Funktion f modeffieren soU werde beispielsweise mit einem Satz von Gewichten w parametnsiert Dann gilt: 

f(yt-u . . . ^t-N) - NNw(yt-n . - • »yt-N> 5 
Die logarithmische WahrscheinHchkeitsfunktion lautet dann: 

L « logSPM(yt,yt-i^ - . . yayOdy 0 

wobei <** nn die gemeinsame Wahrscheinlichkeitsdichte sich zu 10 

t 

p M (y t ,y t . t y2»yi)=P M (yN-«^i)IlP M (yilyH--yi-N) <s> 

approxhniert und fur das neuronale Netz folgender Zusammenhang fur die Berechnung der Fehierverteilungs- 
dichte gilt: 

P^tytlyt-hyt^r-.yt-N) =» Pe(yt-NNw(yt-i,yt-2,...,yt-N) (7) 20 

Fur das Lernen mit Hilf e von Backpropagation, oder anderer Gradienten basierter Lemalgorithmen wird nun 
noch der Gradient der logarithmischen Wahrscheinlichkeitsfunktion benotigt, welcber sich zu: 

± J 31 ° 8PM(y ^- y ">P " (y - m | rW «> (8 , 

aw ix=N+i «w 

ergibt Es ist anzumerken, daB hierbei von bekannten Ausgangsbedingungen fur yi, . . . ,vn ausgegangen wint Fur 30 
den Fall, daB eine GauBverteilung fur die Fehlerverteilung vorliegt ergibt sich daraus: 

-NN w (y H .....y Hr )) dNN -^-^ } pM (y »a> , y - )dy *v (8a) 

wobei 

40 

die f ehlenden Werte fur die Eingange des Netzwerkes darstellen und (8a) zeigt, daB falls alle yi . . - yi-N bekannt 45 
sind, das Integral verschwindeL . , 

Falls die MeBwerte von einem zusatzlichen aber bekannten Rauschen uberiagert werden ergeben sich die 
folgenden Zusaznmenhange. Beispielsweise gilt wieder: 

yt «= f(yt-uyt-2. . . • y t _N)+e> 50 

In dieser Variante der Erfindung soli jedoch kein direkter Zugriff auf yt bestehen. Anstatt dessen wird die 
Zeitreihe 

zt-yt + 8, 55 

gemessen. Darin bedeutet 5t ein unabhangiges Rauschen mit Mittelwert NulL Unter der Voraussetzung, daB z =• 
{zi . . . z t - 1} und y = [yi ..-yt} gelten ergibt sich die Gesamtwahrscheinlichkeitsdichte zu: 

60 

t t 

P(y,z) = ny„,„. 9 y t ) n*Wyw — yi-N)E[P(2i»y,) ( 8b) 

damit laBt sich die Rechenvorschrift fur den erwarteten nachsten Wert der Zeitreihe angeben. 65 
E(yi I z - Jf(y t -in... 1 yt-N)PCyr-i,..-«yt-N|z)dyt-t...dyt-N (9) 
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Ebenso kann der Gradient der Wahrscheintichkeitsfunktion fur das Training berechnet werden. Fur den Fall, 
daB eine GauBverteilung des Rauschens mit 

Z = {Zi ... Zt} 

5 

vorliegt, ergibt sich: 


(9a) 

15 Dem neuronalen Metz werden beispielsweise Werte zugefuhrt, die verrauscht oder nicht genau bestimmbar 
sind. Durch die Approximation der Gewichte im neuronalen Netz werden dabei uber die Funktion f, welche 
dabei durch das neuronale Netz nachgebQdet wird neue Werte der Zeitreihe bestimmbar. Diese neuen Werte 
der Zeitreihe werden im AnschluB dem neuronalen Netz NN W zugefuhrt, welches daraus wiederum durch 
Nachbildung der Funktion f neue Werte der Zeitreihe bestimmt Dieser iterative Vorgang wird solange fortge- 

20 setzt, bis eine hinreichende Genauigkeit der zu bestimmenden Werte erreicht wurde. 

Zur genauen Bestimmung fehlender Werte mit Hilf e der Monte Carlo Methode wird von folgenden Grundla- 
gen ausgegangen. Es ist hier zu beachten, daB alle Losungen die Form 

Jh(ii,m)P(u|m)du (9b) 

25 

aufweisen, wobei u den Satz von unbekannten Variablen und m den Satz von bekannten Variablen bedeutet Ein 
Integral dieser Form kann beispielsweise gelost werden, indem Zufallsproben der unbekannten Variablen 
gemaB P(u|m) gezogen werden. Beispielsweise werden diese Proben mit u l , . ♦ . , u s bezeichnet Daraus ergibt sich 
folgender Zusammenhang fur die Annaherung: 

30 

Jh(u,m)P(uIm)du« \^h(u* 9 m). (9c) 

35 

Es ist zu beachten, daB in dieser Gleichung u den Wert yt-k, welcher fehlt, entspricht Mit dieser erfindungsge- 
maBen Ldsung reduziert sich das Problem also darauf, aus P(u|m) Proben zu ziehen. Fur den Fall, daB lediglich 
eine Variable fehlt, also beispielsweise lediglich eine Ruckfuhrung auf getrennt wurde, reduziert sich das Problem 
also auf das Probenziehen aus einer ein variablen Verteilung, welche mit Hilf e des "sampling-import ance-resam- 

40 pling" oder anderen sampling-Techniken [1] getan werden kann. 

Fig* 2 zeigt ein Blockschaltbild zur Verdeutlichung des erfindungsgemaBen Verfahrens. Das neuronale Netz 
NN W soil hier das technische System f steuern. Zum einen ist das neuronale Netz NN W dargestellt und zum 
anderen das technische System f. Die Indizes t und t— :l sind die zeitlichen Abhangigkeiten der einzelnen Werte 
voneinander abgegeben. Der Index — 1 bedeutet dabe i, daB der betrachtete Wert sich in der Zeitreihe vor dem 

45 Wert befindet, welcher den Index t hat. Vom neuronalen Netz wird uber die Verbindungsleitung 150 die 
Stellgrdfie u t - i an das technische System f abgegeben. Unterwegs wird dieser Wert nach dem erfindungsgema- 
Ben Verfahren an einer VerknOpfungsstelle mit einem Rauschen von bekannter Rauschverteflung e uberla- 
gert Dem technischen System f wird dieser Wert u t -i + e zusammen mit dem Wert y t -i zugefuhrt Das 
technische System f reagiert auf diese StellgroBe, indeim es eine RegelgroBe y t erzeugt Diese RegelgrdBe wird 

so einem Verzdgerungsglied Zl zugefuhrt, welche beispielsweise gleichzeitig eine Additionsfunktion enthalt Die- 
ses Verzdgerungsglied verzdgert beispielsweise den vom technischen System abgegebenen Wert y t urn eine 
Zeiteinheit, urn so den Eingangswert uber die Leitung iSO fur das technische System zur Verfugung stellen zu 
kdnnen. Weiter wird dieser Wert yt-i auch uber die: Leitung 100 an das neuronale Netz NN W abgegeben. 
Zusatzlich ist in Fig. 2 das Rauschen 8 dargesteUt, welches beispielsweise an der Verknupfungsstelle und dem 

55 Verzdgerungsglied Zl der RegelgrdBe uberlagert werden kann. Diese Art der Oberlagerung ist jedoch nicht 
notwendige Voraussetzung fur die Funkdonsf ahigkeit cles erfindungsgemaBen Verfahrens. 

Beispielsweise stellt das System eine Heizungsanlage dar, das einen Zustand y. i zum Zeitpunkt t — 1 und eine 
Kontrollaktion zum Zeitpunkt t— 1, welche als Ut-i bezeichnet ist, wie etwa Einschalten, auf einen neuen 
Zustand zum Zeitpunkt t, der mit y t bezeichnet ist, abbildet Ferner wird beispielsweise ein gewunschtes 

60 Sollverhalten durch eine Kostenfunktion Qy) vorgegeben, die etwa C(y)=*=(y— yson) 2 lautet Sel ist es beispiels- 
weise, das System mit einem neuronalen Netz NN W so zu steuern, daB die Kosten minimiert werden. Vorzugs- 
weise kdnnen die Kosten in ferner Zukunft beispielsweise schwacher gewichtet werden. Hierzu wird beispiels- 
weise ein Abschlagsfaktor y 1 " 1 eingefuhrt, wobei 0<7 < 1 gilt Hierzu mussen die Parameter des Netzes NN W , 
also dessen Gewichte richtig eingestellt, <L h. trainiert v/erden. Dies erfolgt vorzugsweise mittels Gradientenab- 

65 stieg. Dabei durfen ut und yt, auch Vektoren sein, die Kostenfunktion kann auch zeitabhangig sein, wie beispiels- 
weise Ct (yt). Die Anfangsbedingungen mussen dabei nicht fest sein, was kein Problem bei der Losung nach dem 
erfindungsgemaBen Verfahren darstellt Im erfindungsgemaBen Fall werden das technische System und das 
neuronale Netz als nicht deterministisch behandelt Zum Training des Netzes muB vorzugsweise der Gradient 
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der Kosten nach den Gewichten bestimmt werden. Dieser ist in(ll#)angegebeiL 

Vorzugsweise wird beim erfindungsgemaBen Verfahren das System simuliert, oder das reale System benutzt 
und die StellgroBe mittels GauBrauschen uberlagert Die Kosten sind nun ZufaDsgroBe und durch die Gleichung 

^ Dabei ve^chwindet das Produkt der Ableitung, welches sich bei einer deterministischen Losung, die hier nicht 5 
dargestellt ist, ergeben wurde. Das neuronale Netz wird nun zunachst mittels Zufallsdaten initiahsiert, <L h. die 
Gewichte werden irgendwie eingesteilt AnschlieBend wird das reale System mit den verrauschten StellgroBen 
betrieben, unabhangig davon kann auch em Modell verwendet werden, und es werden die SteOgrdBen beobach- 
tet, welche vom System abgegeben werden. Vorzugsweise wird von mehreren Durchlaufen des Systems erne 
Zeitreihe aufgenommen. Dabei werden beispielsweise sowohl die StellgroBen als auch die RegelgroBen proto io 
kolliert Im AnschluB wird diese Zeitreihe dem neuronalen Netz zugefuhrt, um eine gunstige Steuerung des 
technischen Systems zu erlernea Durch die vorgegebene Kostenfunktion werden dabei solche Gewichtsveran- 
demngen am neuronalen Netz begunstigt, d. h. verstarkt oder weniger gedampft, welche geringere Kosten 
bewirken. Falls dieses Trainingsverffahren mehrfach durchgefuhrt wird, d h. falls mehrere Zeitreihen aufgenom- 
men werden, und mit diesen das neuronale Netz trainiert wird, so ergibt sich eine sehr zuverlassige Einstellung is 
der Gewichte des neuronalen Netzes. Unabhangig von der beispielhaft vorgestellten Kostenfunktion konnen 
auch andere Kostenfunktionen angedacht werden. Letztendlich ist es wichtig, daB diese Kostenfunktion eine 
Verstarkung, bzw. Abschwachung der am Netz eingestellten Gewichtsfaktoren bezuglich eines gunstigen Sy- 
stemverhaltens des technischen Systems erreicht j ^ . . 

Durch das erfindungsgemaBe Verfahren kann auf diese Weise fiber einer statistischen Vertedung der Zeitrei- 20 
hen mittels zufSIlig gestorter StellgroBen eine Einstellung der Gewichte am neuronalen Netz gefunden werden, 
welche ein gunstiges Sollverhalten des technischen Systems bewirkL 

Fig. 2 erlautert weiter ein Beispiel des erfindungsgemaBen Verfahrens anhand eines Blockschaltbfldes. GemaB 
diesem Beispiel sei eine Zeitreihe der Form: 

25 

yt=f(yt-i,ut_i)+5t (1#) 
gegebenmit 

u t =NNw(yt)+et 30 
undT: 

Intervallbreite zur Erreichung des Sollzustandes. 

Nach dem erfindungsgemaBen Verfahren soli nun das neuronale Netz so trainiert werden, indem die einzustel- 
lenden Gewichte an den Neuronen so gewahlt werden, daB die gemaB einer Kostenfunktion zu bewertenden 35 
erwarteten Kosten innerhalb des Intervalles T minimiert werden. Diese lassen sich allgemein als 


E(cost)aJ^y^ I C(y l )P(y 1 ,_ t y T )dy 1 ,_,(ijr x 


40 


1=1 

darstellen mh: 

y ^ 1 Abschlagsfaktor fur zukunftige Werte der Zeitreihe *5 


50 


Wahrscheinlichkeit fur das Auftreten bestimmter Werte innerhalb der Zeitreihe. 

Um das Regeiverhalten des neuronalen Netzes zu optimieren, wird gemaB dem erfindungsgemaBen Verfah- 
ren zunachst der Gradient der zu erwartenden Kosten nach den Gewichten des neuronalen Netzes gebildet: 

3E(cost) fjf^ ) Jt af(y ^^ ) aNN w(y^) (y 1 

P(yi—,y,)dyi— <fy, (ii#) 

diese Losung kann durch stochastisches Sampling approximiert werden, indem die Gleichung (9c) analog 
angewendet wird. Das heiBt in diesem FaD, daB das neuronale Netz zusammen mit dem technischen System, oder 65 
seinem Modell mehrere Zeitzyklen lang betrieben wird, und daB mehrere Zeitreihen von y und u aufgenommen 
werden. Die Mittelwertbildung der mit diesen Zeitreihen gebildeten Gradienten, fuhrt dann zu den Werten, 
welche fur das Training Verwendung finden. Fallweise kann es hierzu jedoch gunstig sein die Kostenfunktion so 
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zu gestalten, daB groBe Gewichte an einzelnen Neuronen bestraf t werden, also hohe Kosten verursachen, oder 
die Zahl und Starke der Steuerakdonen des Netzes berucksichtigt urn unendlich starke Steuerakdonen vermei- 
den zu kdnnen. Mit der obigen Voraussetzung fur u t ergibt sich 

xP(y„... .y,,^ «,_,)<iy 1 ,..-,dy 1 ,du 1 iu M (12#) 

als Gradient fur die zu erwartenden Kosten. Durch analoge Anwendung von (9c) vereinfacht sich dieser zu 


dw 


^^fT"(7u>»u)x|^— ^^ (o^-NNJy,,))] (12##) 


mit: 

T: Anzahl der Zeiteinheiten je Zeitreihe 
S: Anzahl der Zeitreihen 

y ^ 1 Abschlagsf aktor fur zukunftige Werte der Zeitreihe 
NN W : vom neuronalen Netz erzeugter Wert 
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PatentiuisprGche 

1. Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines 
technischen Systems, 

a) bei dem das neuronale Netz mit dem technischen System, oder einem Modell davon so in einen 
Regelkreis eingebunden wird, daB das neuroinale Netz als AusgangsgroBe mindestens eine SteUgrdBe 
an dar technische System, oder sein Modell abgibt und das technische System oder sein Modell aus der 
vom neuronalen Netz zugefuhrten SteUgrdBe;, mindestens eine RegelgroBe erzeugt, die dem Neurona- 
len Netz als EingangsgrdBe zugefuhrt wird, 

b) bei dem die SteUgrdBe mit einem Rauschen von bekannter Rauschverteilung uberlagert wird, bevor 
sie dem technischen System oder seinem Mod ell zugefuhrt wird, 

c) und bei dem die Gewichte des neuronalen Netzes in Reaktion auf die durch das aufgepragte 
Rauschen veranderte RegelgroBe wie folgt eingestellt werden: 

es wird von einer Kostenfunktion bewertet, ob die Gewichtsanderung am Netz, die nach bekannten 
Lernyerfahren eingestellt wird, eine Verbesserung der RegelgroBe in Bezug auf ein Sollverhalten des 
technischen Systems bewirkt hat und solche (GewichtseinsteUungen werden durch die Kostenfunktion 
begunstigt 

2. Verfahren nach Anspruch 1, bei dem die Gewichtseinstellungen durch die Kostenfunktion dahingehend 
bewertet werden, ob die Gewichtsanderung am Netz, die nach bekannten Lernverfahren eingestellt wird, 
eine Verschlechterung der RegelgroBe in Bezug auf ein Sollverhalten des technischen Systems bewirkt hat 
und solche Gewichtseinstellungen durch die Kostenfunktion abgeschwacht werden. 

3. Verfahren nach Anspruch 1 oder 2, bei dem die Gewichte des neuronalen Netzes in Reaktion auf die 
durch das aufgepragte Rauschen veranderte RegelgroBe wie folgt eingestellt werden: 

i) die Neuronengewichte werden beliebig initialisiert; der Regelkreis wird eine Mehrzahl von Zeitzy- 
klen betrieben und es werden sowohl die RegelgroBe, als auch die SteUgrdBe in Form von je einer 
Zeitreihe protokolliert, 

ii) die Neuronengewichte werden nach bekannten Lernverfahren eingestellt und es wird jeweils fur 
jeden Wert der Zeitreihe der Gradient der Gewichtsanderung an den Neuronen in Abhangigkeit von 
der SteUgrdBe und des bekannten Rauschens bestimmt, wobei dieser Vorgang mehrfach wiederholt 
wird und dabei von einer Kostenfunktion bewertet wird, wie gunstig sich die RegelgroBe in Bezug auf 
ein Sollverhalten des technischen Systems als Reaktion darauf verhalt 

4. Verfahren nach Anspruch 2, bei dem eine Vielzaihl von Zeitreihen aufgenommen wird und die Neuronen- 
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gewichte fur jeweils eine Zeitreihe bestimmt werden, weiche als Einzelwerte die arithmetischen Mhtel werte 
der aufgenommenen Zeitreihen hat 

5. Verf ahren nach einem der vorangehenden AnsprQche, bei dem eine GauBverteflung als bekannte Rausch- 
verteihing verwendet wird. 

6. Verf ahren nach Anspruch 4, mit einer Zeitreihe der Fonnel: 5 
yt = *(yt-i»u*-i) 

mit: 10 


15 

NN W : vom neuronalen Netz erzeugter Wert 

bei dem die Gewichte an den Neuronen wie folgt bestimmt werden: 


3E(C08t) *ff H , , i"-<h 3NN.(y„), ] 


20 


mit: 

T: Anzahl der Zeiteinheiten je Zeitreihe 25 
S: Anzahl der Zeitreihen 

y ^ 1 Abschlagsfaktor fur zukunftige Werte der Zeitreihe. 

7. Verf ahren nach einem der vorangehenden AnsprQche, bei dem die RegelgroBe mit einem Rauschen von 
bekannter Rauschverteilung der Form 

30 

ut - NNw(yt)+5t 

uberiagert wird 
mh: 

35 
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